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摘要 : 上 个 世纪 60 年 代 ，Kimura 提出 的 “中 性 进化 ”假说 使 经 典 的 达尔 文 自然 选择 学 说 遭遇 了 前 所 未 有 
的 挑战 。 但 新 近 的 研究 表明 : 在 DNA 水 平 ， 越 来 越 多 的 证 据 支 持 “ 自 然 选择 ”的 进化 理论 。 这 些 研究 成 果 得 益 
于 近年 来 大 量 群体 和 基因 组 DNA 数据 的 积累 ， 以 及 理论 群体 遗传 学 的 发 展 。 在 DNA 水 平 检 测 选择 作用 是 否 存 
在 的 方法 包括 两 大 类 : 种 内 多 态 性 检验 和 种 间 差异 度 检验 。 前 者 以 Tajima (1989) 提出 的 D 检验 为 代表 ， 后 者 
大 都 基于 “中 性 条 件 下 ， 种 内 与 种 间 进 化 速率 一 致 ”的 原理 。 这 些 方法 以 中 性 假说 作为 零 假设 ， 结 合 统计 检验 
方法 分 析 DNA 数据 ， 被 称 为 “中 性 检验 ” 。 这 些 方法 对 于 解决 一 些 有 关 进 化 的 基础 理论 问题 和 人 类 遗传 学 及 生 
物 信息 学 的 深入 研究 都 具有 重要 意义 。 本 文 介绍 几 个 应 用 广泛 的 检测 方法 ， 以 使 国内 的 读者 了 解 它们 的 基本 思 
路 和 操作 方法 。 
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Abstract: In the 1960s, the neutral theory proposed by Kimura caused an unprecedented challenge to the classical 
Darwin's theory of natural selection. However, recent advances in evolutionary genetics have provided a great deal of evi- 
dence on the role played by natural selection at the DNA level. These progresses have been stemmed from the appearance 
of enormous DNA sequence data of populations and genomes as well as the development of theoretical population genetics . 
There are mainly two kinds of approaches to detect selection at the DNA level; intraspecific polymorphism tests and inter- 
specific divergence tests. The former one is represented by Tajima's (1989) D test while the latter one is based on the 
principle that the intraspecific polymorphism should be consistent with the interspecific divergence under neutrality. These 
methods are usually called "neutrality tests" because the neutrality hypothesis is taken as the null hypothesis in the tests. 
They are important tools not only in solving the basic theoretical questions in evolutionary biology but also in interpreting 
data and results obtained in the studies of human genetics and bioinformatics. In this paper, we shall review the progress- 


es in detecting natural selection at the DNA sequence level and introduce the basis and application of several widely used 
tests. 
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进化 论 作 为 19 世纪 最 重要 的 四 项 科学 发 现 之 当时 这 一 结果 与 达尔 文 进化 论 的 核心 内 容 一 一 自然 
一 ， 其 物 竞 天 择 的 理论 大 大 改变 了 人 们 以 往 对 自然 — 选择 在 进化 过 程 中 起 主导 作用 的 观点 所 预期 的 现象 
界 的 认识 。 但 是 20 世纪 60 年 代 蛋 白 电泳 技术 ” 相 矛 盾 。 之 后 Kimura 在 1968 年 提出 了 中 性 进化 理 
(Hubby & Lewontin, 1966) 的 发 明和 应 用 ,使 人 们 论 ， 并 对 这 一 矛盾 做 出 解释 。 该 理论 认为 ， 基 因 中 
在 氨基 酸 水 平 观测 到 了 大 量 超出 预期 的 遗传 变异 。 ”的 变异 大 多 为 中 性 ， 基 因 漂 变 、 种 群 大 小 的 变化 和 
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种 群 迁徙 等 随机 事件 是 决定 进化 的 关键 因素 
(Kimura ，1968，1983)。 由 于 蛋白 质 的 多 态 性 和 分 
子 钟 (molecular clock) 现象 都 为 中 性 假说 提供 了 
有 力 的 证 据 ， 进 化 生物 学 一 度 分 裂 成 分 子 水 平 的 中 
性 进化 论 和 宏观 角度 的 现代 达尔 文 论 的 选择 主义 。 

尽管 如 此 ， 自 然 选择 论 依然 影响 深远 。 自 
1983 年 DNA 测序 技术 用 于 群体 遗传 研究 以 来 
(Kreitman，1983)， 在 DNA 水 平 上 寻找 自然 选择 作 
用 成 了 进化 生物 学 界 的 一 个 热点 问题 。 一 系列 的 重 
要 研究 逐步 发 现 选 择 在 DNA 分 子 水 平 的 重要 作用 。 
如 Fay et al (2002) 系统 分 析 了 果 蝇 等 的 基因 组 后 ， 
认为 选择 作用 在 形成 现 有 基因 变异 格局 中 占有 主导 
地 位 。 在 新 基因 的 起 源 发 生 过 程 中 ， 选 择 作 用 也 承 
担 了 重要 角色 。 如 在 jingwei (f D) 和 作者 发 现 的 
sphinx ( 司 芬 克 斯 ) 基因 中 ， 基 因 在 自然 选择 的 推 
动 下 发 生 了 快速 进化 ， 从 而 很 快 形成 了 新 的 功能 
(Long & Langley, 1993; Wang et al, 2000, 
2002a)。 我 们 也 在 人 类 与 雄性 生殖 相关 的 基因 中 检 
验 到 了 选择 的 存在 (Wyckoff et al，2000)。 上 述 研 
究 成 果 为 自然 选择 提供 了 实验 证 据 。 随 着 研究 的 逐 
步 深入 ， 在 DNA 水 平 上 进行 选择 作用 检验 的 理论 
和 方法 也 已 得 到 很 大 的 完善 。 这 些 方法 大 都 是 以 中 
性 假说 为 零 假设 ,通过 统计 学 的 检验 方法 分 析 
DNA 数据 ， 进 而 检验 自然 选择 的 存在 。 它 们 被 统 
称 为 中 性 检验 (neutrality test); 

这 些 检验 方法 的 应 用 ， 不 仅 为 进化 生物 学 ， 同 
时 也 为 人 类 遗传 学 和 生物 信息 学 提供 了 强 有 力 的 
DNA 数据 分 析 工 具 和 完善 的 逻辑 支持 。 如 一 个 抗 
性 或 疾病 基因 是 否 受 自然 选择 作用 而 产生 动态 变 
化 ， 基 因 中 现行 变异 格局 是 否 为 选择 所 致 等 等 这 些 
生物 学 家 所 关心 的 问题 ， 都 可 以 运用 这 些 方法 进行 
分 析 推 新。 遗憾 的 是 ， 国 内 对 这 一 领域 的 认识 和 在 
这 方面 的 工作 尚 处 于 起 步 阶段 ， 因 此 阻碍 了 相关 学 
科 的 发 展 ， 特 别 是 人 类 遗传 学 和 基因 组 学 的 发 展 。 
目前 有 必要 对 这 些 方 法 的 原理 和 操作 进行 一 些 综合 
性 的 介绍 。 

本 文 将 对 六 个 检验 选择 作用 的 常用 方法 进行 介 
绍 ， 并 指出 其 存在 的 问题 和 可 能 的 发 展 。 下 文 涉及 
的 有 关中 性 检验 的 计算 都 可 以 由 相应 软件 完成 。 
依据 用 于 分 析 的 DNA 数据 类 型 ， 这 些 方法 可 分 为 
利用 种 内 多 态 性 比较 (intraspecific polymorphism ) 





的 检验 和 利用 种 间 分 歧 度 比较 (interspecific diver- 
gence) 的 检验 。 在 实验 分 析 的 过 程 中 ， 单 独 采 用 
某 一 种 检验 往往 不 能 得 到 一 个 可 靠 的 推断 ， 经 常 需 
要 同时 运用 几 种 检验 ， 同 时 综合 生物 学 背景 ， 才 能 
得 到 一 个 比较 可 信 的 结果 。 


1 基于 种 内 多 态 性 的 中 性 检验 


基因 的 长 期 进化 和 遗传 多 态 性 是 同一 个 进化 过 
程 中 的 两 个 不 同 的 层面 (Ohta & Kimura, 1971), 
遗传 多 态 性 往往 是 研究 进化 动力 学 的 切入 点 。 与 蛋 
白 电 瀛 相 比 ，DNA 的 多 态 性 包含 了 更 丰富 和 更 本 
质 的 遗传 进化 信息 ， 并 且 在 操作 上 有 大 量 连锁 的 所 
谓 中 性 位 点 可 供 检视 。 所 以 ，DNA 多 态 性 已 成 为 
现代 进化 遗传 学 研究 的 首选 材料 。 

衡量 DNA 多 态 性 比较 常用 的 参数 有 三 种 : 分 
离 位 点 数 (segregating sites), UJ K 表示 ， 指 所 取 
DNA 样本 中 具有 不 同 碱 基 序列 的 位 点 数目 ; 任意 
两 序列 之 间 核 背 酸 差异 的 平均 数 (the mean number 
of nucleotide differences) , LA II 表示 ; 变异 的 频率 
谱 线 (frequency spectrum) ， 意 指 变异 在 时 间 上 先 
后 出 现 的 在 不 同 谱系 中 的 分 布 差 异 ， 或 是 根据 变异 
出 现 的 频率 计算 的 杂 合 度 。 

Tajima (1989) 提出 第 一 个 基于 种 内 DNA 序列 
比较 的 中 性 检验 方法 后 ， 一 系列 类 似 的 检验 方法 应 
运 而 生 。 它 们 从 原理 和 构建 的 方法 上 都 沿袭 了 
Tajima's D 检验 的 思路 : 首先 通过 上 文 提 到 的 几 个 
衡量 DNA 多 态 性 的 参数 对 群体 遗传 参数 6 进行 估 
计 。 此 处 的 0 是 描述 种 群 动态 的 参数 ， 理 论 值 为 4 
Nox CN, 为 有 效 种 群 大 小 ，j 为 突变 速率 )。 在 中 
性 假说 的 条 件 下 ， 不 同方 法 产生 的 6 的 估计 值 应 该 
相等 。 基 于 此 理念 构建 单 侧 检 验 或 双 侧 检验 统计 检 
验 式 : 

(Li - L2) (1) 
JÁ|VG, - L3) 
式 中 Ly LQ 为 通过 不 同方 法 产生 的 6 的 估计 值 ， 
具有 相同 的 统计 学 期 望 值 ; 了 代表 方差 计算 。 

通过 蒙特 卡 罗 随 机 模拟 (Monte-Carlo simula- 
tion) 产生 关于 统计 检验 的 分 布 曲 线 和 临界 值 ， 用 
于 结果 检验 。(1) 式 若 得 到 显著 (significan) 的 结 
果 ， 则 表示 种 群 受 到 了 基因 随机 漂 变 以 外 的 因素 影 
响 ， 偏 离 了 中 性 模型 。 


DMEGA2 (http: //www. megasoftware. net ) :PAML(ftp: //abacus. gene. ucl. ac . uk/pub/paml/) fii DNAsp(http: //www ub. es/dnasp/) « 
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1.1 Tajima's D 检验 

这 是 Tajima (1989) 提出 的 中 性 检验 方法 ， 通 
过 分 离 位 点 数目 K 和 任意 两 条 序列 之 间 差 异 的 平 
均 数 开 对 0 进行 估计 : 


E(K) = ai0, | (Watterson,1975) (2) 


Juba, = SL, s 为 所 研究 样本 数目 ; 


ECT) = x (Tajima,1983) (3) 
然后 根据 (2) 和 (3) 构建 Tajima’s D 检验 : 
XT— £, - 
D- QC PON (Tajima,1989) (4) 
XR i, 


蒙特 卡 罗 随 机 模拟 显示 ，D 值 的 分 布 并 非 左右 
对 称 的 正 态 分 布 ， 反 而 与 8 分 布 比 较 接 近 。 所 以 ， 
Tajima 建议 实际 操作 过 程 中 ， 用 8 曲线 来 拟 合 D 值 
曲线 。 

在 用 于 检验 的 参数 中 ， 由 于 K 的 计算 不 考虑 
突变 位 点 的 频率 ， 只 计算 位 点 的 数目 。 所 以 即使 是 
整个 种 群 中 所 占 比 例 很 低 的 变异 (mutations of low 
frequency). 也 将 对 天 值 产生 很 大 影响 。 而 II 由 于 
计算 的 是 序列 差异 的 平均 值 ， 因 此 对 平均 杂 合 度 贡 
献 很 小 的 低 比 例 变异 不 会 对 II 产生 很 大 的 影响 
(图 1)。 


Seql: AGCCCTTACG 
Seq2: AGCCCTTACC 
Seq3: AGCTCTTATC 
Seq4: ATCTCTTATC 


Ei KK 和 6 的 计算 
Fig.1 Computation of K and 0 

假设 有 如 图 4 条 DNA 序列 ， 因 为 4 个 样本 中 有 4 个 位 点 的 碱 基 不 
同 ， 所 以 及 = 4; 假设 第 i 条 序列 与 第 j 条 序列 间 的 差异 是 d,， 则 : 
du=1, dus=3, du=4, dy=2, d4-3, dy=1, II - (dn 
da+…+da) /622.33, 0, =2.18。 

In the four DNA sequences listed above, there are 4 sites that have differ- 
ent nucleotide. That is to say, K =4. If the difference between the ith 
sequence and the jth sequence is dij, then: di 51, di 23, di -4, 
d»22, dà 23, d4 21, II 2 (di du c + d) /622.33, 
0, 22.18. 


UH. KORLII 的 特征 差异 ， 当 所 研究 种 群 中 出 
现 有 害 变异 (deleterious mutation) 时 ， 这 些 变异 将 
由 于 受 负 选 择 作 用 (negative selection 或 purifying 
selection) 而 在 种 群 中 保持 比较 低 的 比例 。 种 群 中 
低 比例 的 变异 将 比 中 性 条 件 下 有 所 增加 ，DNA 数据 
上 体现 的 效果 为 0, 值 增 大 ,得 到 负 的 D 值 。 当 种 
群 中 的 某 一 条 等 位 基因 受到 强烈 的 正 选 择 作用 


(positive selection) 时 ， 其 附近 与 之 紧密 连锁 的 座位 
上 的 中 性 甚至 轻微 有 害 的 变异 ， 将 伴随 这 条 被 选择 
影响 的 等 位 基因 比例 的 升 高 而 相应 提升 在 种 群 中 的 
比例 ， 这 样 的 现象 被 称 为 搭载 效应 〈hitchhiking ) 
或 选择 扫荡 (selective sweep)。 巧 合 的 是 ， 搭 载 效 
应 过 后 ， 中 性 突变 的 积累 同样 将 造成 额外 的 低 比 例 
变异 。 因 此 ，D 检验 如 果 得 到 负 的 显著 结果 ， 既 有 
可 能 是 负 选 择 造成 的 ， 也 有 可 能 是 搭载 效应 的 信 
号 。 而 反之 ， 当 种 群 受到 平衡 选择 (balancing se- 
lection) 的 作用 时 ， 群 体 中 会 存在 两 条 或 几 条 频率 
较 高 的 等 位 基因 ，D 将 为 正 值 。 例 如 最 近 我 们 在 果 
蝇 4 号 染色 体 中 发 现 的 情况 (Wang et al，2002b) 
与 平衡 选择 相符 。 果 蝇 4 号 染色 体 自 摩尔 根 时 代 就 
被 认为 没有 重组 ， 因 而 在 进化 上 可 视 为 一 个 单元 ， 
成 为 当代 分 子 进化 遗传 学 中 检验 选择 的 一 个 经 典 案 
例 。 然 而 我 们 的 研究 表明 : 4 号 染色 体 实际 上 存在 
着 重组 。 在 一 个 约 200 kb 的 区 域内 ， 二 型 性 〈di- 
morphism) 明显 地 存在 ， 其 Tajma's D 值 为 正 值 。 
暗示 着 这 一 区 域 有 可 能 存在 平衡 选择 作用 。 

值得 注意 的 是 ， 选 择 并 非 造 成 D 值 显著 的 唯 
一 原因 ， 瓶 颈 效 应 和 大 规模 的 碱 基 播 入 或 缺失 也 可 
能 造成 D 小 于 零 (Tajima，1989); 此 外 D 值 本 身 
也 并 非 呈 现 严格 的 8 分 布 ,用 8 曲线 检验 结果 将 会 
产生 一 些 误 差 ， 因 此 必要 时 还 需 另 作 电 脑 模拟 (Si- 
monsen et al, 1995), 
1.0 Fu 和 Li 的 检验 方法 

上 个 世纪 80 年 代 由 Kingman (2000), Tajima 
(1983) 和 Hudson (1983) 等 人 奠定 基础 并 迅速 发 
展 起 来 的 种 群 遗 传 学潮 祖 理论 (coalescent theory), 
使 人 们 可 以 通过 DNA 样本 对 种 群 的 进化 历程 进行 
动态 追踪 。Fu & Li (1993) 提出 的 Fu 和 Li 检验 正 
是 运用 了 这 一 理论 ， 对 变异 在 不 同 进化 时 间 上 的 分 
布 情况 进行 比较 ， 进 而 检验 种 群 进化 是 否 符合 中 性 
模型 。 

在 系统 树 中 ， 与 底层 DNA 样本 序列 直接 相连 
的 枝 上 的 突变 定义 为 外 缘 突变 (external. mutation; 
图 2: d，e，f，g，h); 相对 地 ， 不 直接 与 DNA 样 
本 序列 相连 的 枝 上 的 突变 为 内 部 突变 (intemal mu- 
tation; 图 2: a, b,c)。 从 系统 树 可 见 ， 外 缘 突 变 
在 时 间 上 比 内 部 突变 晚 或 者 说 接近 现代 。 

如 果 种 群 受 到 负 选 择 作用 ， 有 害 变异 频率 因 选 
择 而 降低 ; 或 是 某 一 条 有 益 的 等 位 基因 在 种 群 中 的 
频率 由 于 受 正 选择 作用 刚 固 定 不 久 ,都 会 导致 外 缘 
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图 2 一 棵 5 个 DNA 序列 构成 的 系统 树 
Fig.2 A phylogenic tree made from five DNA sequences 
摘自 Fu & Li 〈1993)。 图 示 每 一 个 结 点 代表 两 条 DNA 序列 的 共同 祖先 ， 由 上 至 下 意味 着 时 间 上 的 由 古 至 今 。m 


(m=2, 


t, 5) 代表 由 m 条 序列 回潮 至 (mm - 1) 条 序列 所 需 代 时 (generation time)。 


From Fu & Li (1993). Every node represents the common ancestor of two DNA sequences. tn (m=2, 


**, 5) is the time 


(number of generations) required for the coalescence from m sequences to m-1 sequences. 


突变 相对 内 部 突变 数量 大 大 增多 。 反 之 若是 受到 平 
衡 选 择 作 用 ， 则 外 缘 突 变 会 比较 少 。Fu 和 Li 通过 
溯源 法 对 外 缘 突 变 和 内 支 突变 的 期 望 值 进行 比较 ， 
若是 在 中 性 模型 下 ， 两 者 应 该 没有 差异 。 基 于 此 ， 
构建 了 四 个 检验 方法 。 这 里 仅 就 其 中 常言 的 根据 含 
有 外 群 的 系统 树 构建 的 检验 作出 介绍 。 
外 群 Coutgroup) 是 指 与 所 研究 物种 或 分 类 元 
近 缘 但 在 进化 上 又 不 属于 所 研究 类 群 的 分 类 元 。 构 
建 一 棵 有 外 群 的 系统 树 ， 即 有 根 树 (rooted tree), 
在 Fu 和 Li 检验 中 用 于 估计 外 缘 突 变 。 经 过 Fu 和 
Li 的 推导 : 
E(y) = 0 (Fu&Li,1993) (5) 


E(q) = (a1-1)0 (Fu&Li,1993) (6) 
其 中 7 代表 外 缘 突变 数目 ，y 代表 内 支 突变 数目 ; 
ai = 2L, n 是 所 取样 本 数目 。 
根据 (5) WI (6) 构建 : 


zl. 
Ye 1-1 


A V(g. ep 


类 似 地 ，G 的 分 布 近似 8 分 布 。 负 的 C 值 暗示 





G = (Fu & Li,1993) (7) 


种 群 有 可 能 受 负 选 择 作用 ， 反 之 则 暗示 有 可 能 是 平 
衡 选择 作用 。Fu 和 Li 系列 还 有 三 个 根据 无 外 群 系 
统 树 构建 的 检验 ， 只 是 引用 不 同方 法 对 6 进行 估 
计 ， 这 里 不 一 一 缆 述 。 

Fu (1997) 同时 指出 ，Fu 和 Li 检验 在 检验 中 
性 假说 方面 有 可 能 比 Tajima's D 检验 更 灵敏 。 主 要 
基于 以 下 原因 : 第 一 ，Fu 和 Li 检验 融合 了 济源 法 ， 
对 突变 在 时 间 上 的 先后 有 了 动态 的 追踪 ， 而 
Tajima's D 检验 仅 考 察 某 一 时 间 点 多 态 性 的 数据 。 
第 二 ，Fu 和 Li 检验 对 6 的 估计 用 的 是 7 入， 
Tajima's D 检验 用 的 是 K 和 五 ， 通 过 计算 两 者 的 协 
方差 值 可 知 ，K、 荆 之 间 的 关联 程度 大 于 n。、%; 
(图 3)。 从 统计 学 角度 来 说 ， 用 于 检验 的 变量 之 间 
关联 越 小 ， 检 验 分 辨 率 越 高 。 
1.3 Fay 和 Wu 的 H 检验 

如 前 所 说 ， 搭 载 效 应 是 在 没有 或 极 少 发 生 重组 
的 区 域 ， 中 性 或 轻微 有 害 的 变异 因为 与 某 一 受 正 选 
择 作用 的 变异 连锁 而 在 种 群 中 比例 升 高 的 现象 。 在 
进行 DNA 数据 分 析 时 ， 进 化 生物 学 家 面临 的 一 个 
很 大 问题 就 是 ， 往 往 不 同 的 进化 因素 将 产生 相似 或 
相同 的 DNA 多 态 现象 。 例 如 ， 背 景 选 择 (back- 
ground selection , 由 于 某 一 基因 受 负 选 择 作用 ,与 
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Fig.3 Relationships among K, II, 7e and yi 


摘自 Fu&Li 〈1993)。 最 高 的 点 线 为 K FUIT 协 方差 线 ， 中 间 的 点 划 线 为 7. 和 x 协 方差 线 ， 最 低 的 实 线 为 和 六 的 协 方差 曲线 。 
From Fu & Li (1993). The dotted curve represents covariance of K and I1; the dashdotted curve is the covariance of 7, and x ; the solid 


curve is the covariance of 了 and i. 


之 连锁 的 变异 比例 降低 的 现象 ) 与 搭载 效应 都 将 造 
成 种 群 平均 杂 合 度 的 降低 。 此 时 一 些 中 性 检验 将 在 
区 分 两 者 之 间 显 得 力不从心 。 

为 解决 这 一 问题 ，Fay & Wu (2000) 提出 了 一 
个 专职 检验 搭载 效应 的 中 性 检验 方法 : HOS. H 
检验 与 Tajima's D 检验 非常 相似 ， 所 不 同 的 是 后 者 
用 了 通过 K 估计 得 到 的 6 (6。) 与 通过 TI 估计 得 
到 的 0 (0n) 进行 比较 ; 而 fH 检验 用 通过 变异 频率 
估计 得 到 的 9 (05) 与 br 比较 。 假 设 在 ”条 染色 
Bk, H3 SUXMSESHEPRB S, Ju: 


n-l .2 
u AN 2Sü 
peru aye Was 20000: (8) 


Ou 对 于 高 比例 的 变异 (mutations of high frequency) 
比较 敏感 。 当 有 搭载 效应 存在 时 ， 将 产生 异常 高 比 
例 的 变异 ， 这 是 搭载 效应 区 别 于 背景 选择 的 一 个 显 
著 标志 。 利 用 这 一 特征 构建 检验: 

(0 6s - 6, 

~ V Va (On - 6.) 
34 H 值 在 统计 学 上 显示 显著 结果 时 ， 妈 暗示 所 研 
究 种 群 有 可 能 受 搭载 效应 的 影响 。Fay 和 Wu 将 这 





(Fay & Wu,2000) (9) 


一 方法 用 于 分 析 果 蝇 编 码 附 属 腺 体 微 管 蛋白 的 基因 
4cp264a 的 DNA 序列 。 在 这 一 段 约 350 bp 的 DNA 
序列 中 ， 发 现 了 比 中 性 条 件 下 异常 多 的 高 比例 变异 
以 及 平均 变异 程度 的 降低 。 暗 示 这 一 区 域内 存在 搭 
载 效 应 。 


2 基于 种 间 差 异 数据 的 中 性 检验 


中 性 假说 预期 ， 中 性 突变 的 随机 遗传 漂 变 是 进 
化 的 主要 推动 力 ， 所 以 种 内 DNA. 多 态 性 和 种 间 
DNA 分 歧 度 的 进化 速率 应 该 一 致 ， 即 种 内 多 态 性 与 
种 间 分 歧 度 在 中 性 模型 下 应 当成 比例 。 若 通过 检 
验 ， 种 内 多 态 性 与 种 间 分 歧 度 存在 显著 的 偏差 ， 则 
暗示 选择 作用 的 存在 。 

有 必要 强调 的 是 ， 之 前 提 到 的 检验 方法 都 是 对 
“严格 中 性 假说 ” (strictly neutrality) 的 检验 ， 即 物 
种 每 一 个 变异 都 被 认为 是 中 性 的 。 下 面 将 要 提 到 的 
几 个 基于 种 间 数 据 的 检验 都 是 对 Kimura 中 性 假说 
(Kimura's neutral theory) 的 检验 ， 即 大 部 分 的 变异 
是 中 性 的 ; 所 以 后 者 的 假设 比 前 者 弱 很 多 。 
2.1 McDonald 和 Kreitman 检验 (MK 检验 ) 
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同 义 突变 (synonymous substitution ) 指 不 改变 
氨基 酸 序列 的 突变 。 错 义 突 变 (replacement) 指 改 
变 氨基 酸 序列 的 突变 。MK 检验 的 原理 是 : 在 无 选 
择 作用 的 中 性 条 件 下 ， 所 研究 基因 的 种 内 的 同 义 、 
错 义 突 变 应 与 种 间 同 义 、 错 义 突 变 成 正比 。 反 之 ， 
则 推翻 零 假设 ， 即 基因 在 不 同 物种 中 受到 了 选择 的 
作用 。MK 检验 思路 简洁 ， 计 算 简 单 ， 但 在 检验 中 
性 假说 方面 却 很 有 说 服 力 。 而 且 该 检验 与 以 上 提 到 
的 检验 相 比 ， 不 需要 很 多 假设 限制 ， 重 组 和 种 群 大 
小 的 动态 对 检验 结果 没有 影响 ， 所 以 应 用 广泛 。 

McDonald & Kreitman (1991) 对 所 研究 的 DNA 
序列 的 位 点 首先 进行 分 类 ， 以 区 分 种 内 差异 和 种 间 
差异 。 将 种 内 个 体 间 无 碱 基 差 异 而 种 间 有 明显 碱 基 
差异 的 位 点 ， 定 义 为 固定 位 点 (fixed site) ， 作 为 种 
间 差 异 的 标志 。 将 种 内 个 体 间 有 碱 基 差 异 的 位 点 ， 
定义 为 多 态 性 位 点 (polymorphic site) ， 作 为 种 内 多 
态 性 的 标志 。 分 辨 出 样本 的 多 态 位 点 和 固定 位 点 之 

后 ,将 各 位 点 上 的 突变 再 按 同 义 突 变 位 点 和 错 义 突 
变 位 点 加 以 区 分 。 按 照 MK 检验 的 原理 ， 在 中 性 条 
件 下 : 





GB - E ES (McDonald & Kreitman, 
1991) (10) 


式 中 ny 代表 既是 错 义 突变 位 点 又 是 固定 位 点 的 位 
点 数 ，xyr 代表 既是 同 义 突变 位 点 又 是 固定 位 点 的 位 
点 数 ，m 代表 既是 错 义 突变 位 点 又 是 多 态 位 点 的 位 
SUB, s, 代表 既是 同 义 突变 位 点 又 是 多 态 位 点 的 位 
点 数 。 

当选 择 作用 存在 于 不 同 物种 中 时 ， (10) 式 两 
边 会 不 相等 。 此 时 ， 可 用 统计 学 的 G-test 检验 等 式 
两 边 比 例 差 异 的 显著 性 。 若 显著 ， 也 就 是 说 物种 间 
的 错 义 突变 数目 大 于 基于 种 内 多 态 性 估计 得 到 的 期 
望 值 ， 说 明基 因 在 物种 间 受 到 了 选择 作用 。 

表 1 列 出 McDonald & Kreitman (1991) 对 果 蝇 


表 1 


的 三 个 种 ，D.melanogaster、D.simulans 和 
D . yakuba 的 Adh 基因 序列 的 分 析 结 果 。 就 表 1 的 
数据 为 例 ，7/17 与 2/42 显然 差异 显著 (G = 7.43， 
P = 0.006)。 暗 示 着 该 基因 座位 上 选择 作用 的 存在 。 
2.2 Hudson-Kreitman-Aquadé 的 检验 方法 (HKA 

检验 ) 

该 检验 方法 基于 的 原理 与 MK 检验 相近 ， 但 运 
用 的 是 统计 学 的 卡 方 (x?) 检验 。 即 计算 出 种 间 和 
种 内 差异 的 卡 平方 和 ， 再 检验 实验 结果 是 否 与 中 性 
条 件 下 的 期 望 值 吻合 ， 所 以 在 统计 学 上 也 被 称 为 吻 
合 度 检验 (goodness of fit test); 

假设 Ki; 代 表 种 1 内 第 i 座位 DNA 序列 的 分 离 
位 点 数目 ，K2; 代 表 种 2 内 第 i 座位 DNA 序列 的 分 
离 位 点 数目 ，D; 代表 种 1 和 种 2 间 第 i 座位 序列 的 
碱 基 差 异 数 。 将 三 者 的 卡 平方 和 相 加 得 到 : 
2 x LKu - EC, p> [ Kz - E(K)0]? 


i VOR) V( Kz2:) 
Ly Ue EQOY VEDO (Hudson et al,1987) (11) 


Kreitman & Hudson (1991) 将 (11) 用 于 果 蝇 
Adh 基因 和 5^ 侧翼 序列 (flanking region). 两 个 区 域 
DNA 序列 的 比较 检验 。5’ 侧翼 序列 的 每 一 个 位 点 的 
突变 都 是 同 义 突变 ， 因 此 可 假定 为 一 段 中 性 突变 区 
5k. Adh 基因 与 该 区 域 比 较 得 到 显著 的 X 值 (P = 
0.05)， 显示 Adh 基因 序列 上 的 变异 不 符合 中 性 模 
型 ， 暗 示 着 Adh 基因 上 存在 着 选择 作用 。 

HKA 检验 对 数据 的 要 求 比 较 高 。 计 算 K 时 需 
要 有 两 个 物种 ， 并 需要 有 两 个 或 两 个 以 上 座位 的 
DNA 数据 。 其 次 该 检验 要 求 所 研究 种 群 大 小 保持 恒 
定 不 变 ， 座 位 间 无 连锁 。 

2.3 K,vs.K, 检验 (Z 检验 ) 

自然 界 中 发 生 的 很 多 错 义 突变 都 是 有 害 突变 。 
在 这 些 突变 位 点 上 , 碱 基 的 替换 将 由 于 负 选 择 作用 
而 保持 比较 低 的 突变 速率 ,假设 K, 为 错 义 突变 速 


种 内 和 种 间 的 同 义 突变 和 错 义 突变 数目 


Table 1 Number of replacement and synonymous substitutions for fixed differences 
between species and polymorphisms within species 


固定 位 点 《种 间 差 异 ) 


多 态 位 点 〈 种 内 多 态 ) 





Fixed site Polymorphic site 
错 义 突变 Replacement 7 2 
同 义 突变 Synonymous 17 


搞 自 McDonald & Kreitman (1991), 
From McDonald & Kreitman (1991). 


42 


1 期 


Fü 琦 等 : DNA 水 平 自然 选择 作用 的 检测 


UE http//www.cqvip.com 


79 





率 ，K, 为 同 义 突 变速 率 。 由 于 同 义 突变 不 改变 氮 
基 酸 序列 ， 因 此 可 假定 同 义 突变 为 中 性 突变 。 大 部 
分 情况 下 ，DNA 序列 的 K,/K, 值 由 于 负 选 择 作用 
而 小 于 1。 在 中 性 条 件 下 ，K。/K, 值 期 望 值 为 1。 
但 当 正 选择 作用 存在 时 ， 某 一 受 正 选择 作用 的 等 位 
基因 的 Ks/K, 将 升 高 ， 甚 至 显著 大 于 1。 这 时 可 通 
过 Z 检验 ( 单 侧 检 验 ) 来 判断 K。 和 K, 之 间 是 否 存 
在 显著 差异 ,， 若 K。 显著 大 于 天 ， 即 为 正 选择 的 标 
志 。 由 于 2 检验 所 要 求 的 DNA 序列 数据 较 少 ， 因 
此 是 初步 判断 选择 作用 是 否 存在 的 首选 检验 方法 。 
计算 K。 和 KK, 的 方法 有 三 类 : 以 Nei-Gojobori 
为 代表 的 进化 通路 法 (Evolutionary Pathway Meth- 
ods) (Nei & Gojobori, 1986), LÀ Li-Wu-Luo 为 代表 
的 基于 Kimura 双 参 数 模型 的 方法 (Methods Based 
on Kimura's 2-Parameter Model) (Li et al, 1985), 
和 以 Yang 的 密码 子 蔡 代 模 型 为 代表 的 最 大 似 然 法 
(Yang & Bielawski，2000)。 其 中 后 两 种 方法 比较 常 
用 。 通 过 上 述 方法 计算 出 K。 和 kK, 后 ,构建 Z 检 
Du 
Zs K, - K, 
VV(K, - K,) 
中 译本 见 吕 宝 患 等 9 ) (12) 
X02) 显示 显著 的 结果 ， 则 暗示 选择 作用 的 
存在 。 


3 结论 与 展望 


中 性 检验 以 中 性 假说 为 统计 学 零 假 设 ， 以 检验 
DNA 水 平 上 选择 作用 是 否 存在 为 目的 ， 在 原理 和 统 
计 检 验 的 构建 方面 都 具有 严密 的 逻辑 体系 。 但 如 前 
文 所 述 ， 自 然 界 中 不 同 的 进化 因素 将 产生 相同 或 相 
似 的 DNA 多 态 结果 。 而 且 选 择 作 用 往往 没有 强烈 
到 在 基因 序列 上 留 下 显著 的 印迹 ,或 者 由 于 其 他 的 
一 些 因素 (如 重组 、 后 续 中 性 突变 等 ) 而 导致 检验 
不 显著 。 因 此 ， 在 面临 实际 的 数据 时 ， 现 有 的 选择 
检验 方法 还 有 很 多 问题 。 检 验 所 隐 含 的 假设 和 有 可 
能 造成 检验 结果 显著 的 选择 以 外 的 进化 因素 都 会 引 
起 问题 。 例 如 许多 检验 方法 都 假设 不 改变 氨基 酸 序 
列 的 同 义 突变 为 中 性 突变 ， 但 在 某 些 序列 区 域 ， 密 


(Nei & Kumar,2000; 





码 子 偏 位 (codon bias， 在 编码 同一 种 氨基酸 的 数 套 
密码 子 中 ， 生 物体 倾向 使 用 特定 的 某 一 套 或 两 套 密 
码 子 的 现象 ) 将 使 该 假设 不 成 立 ， 因 此 会 对 检验 结 
果 产 生 影响 。 又 如 在 某 些 检验 (HKA 检验 ) 中 ， 
要 求 所 研究 种 群 大 小 保持 不 变 等 等 。 

其 次 ， 单 独 某 一 个 检验 得 到 显著 的 结果 有 时 并 
不 足以 表明 选择 的 存在 。 实 际 操 作 时 ， 通 常 先 采用 
K, vs. K, 检验 比较 序列 同 义 突变 和 错 义 突变 速率 差 
异 , 然后 通过 Tajima's D 检验 进行 种 内 多 态 性 比 
较 ， 最 后 用 MK 检验 进行 种 间 差 异 比 较 。 通 过 几 个 
检验 方法 才能 对 问题 作出 解释 。 此 外 ， 本 文 介绍 的 
六 个 检验 都 是 对 中 性 假说 模型 的 “保守 ”检验 ， 原 
因 是 这 些 检验 体现 的 只 是 自然 选择 对 整个 DNA 序 
列 作用 的 平均 结果 ， 而 不 能 体现 在 不 同 区 域 和 位 点 
选择 作用 强 弱 的 差异 。 假 如 在 编码 氨基酸 的 DNA 
序列 的 某 一 个 位 点 发 生 了 变化 ， 该 变异 有 可 能 改善 
了 整个 蛋白 质 的 性 质 和 功能 ， 但 中 性 检验 却 有 可 能 
无 法 分 辩 这 样 单 个 的 序列 突变 ， 从 而 对 检测 这 样 的 
选择 过 程 无 能 为 力 。 

上 述 种 种 问题 对 进化 遗传 学 家 提出 了 挑战 。 当 
前 ， 理 论 进化 遗传 学 家 的 一 个 重要 任务 就 是 思考 如 
何 修 正 模 型 以 符合 DNA 数据 的 实际 情况 。 对 此 FU 
Yun-xin 教授 的 实验 室 正 在 针对 实际 DNA 数据 的 特 
性 进行 研究 和 探索 (Fu，personal communication ) , 
并 已 取得 了 一 些 有 意义 的 结果 (Li et al，2002)。 

除了 对 有 关 理 论 模型 进行 修正 ， 对 于 实际 的 数 
据 还 可 以 采取 其 他 策略 ， 如 我 们 在 雄性 生殖 基因 中 
所 作 的 那样 通过 电脑 模拟 比较 观测 到 的 变异 格局 是 
否 显著 偏离 中 性 模型 下 的 分 布 来 检测 选择 的 存在 
(Wyckoff et al, 2000); 或 是 判断 氨基 酸 的 改变 是 否 
显著 改变 了 蛋白质 的 功能 等 等 来 推断 选择 作用 是 否 
存在 (如 Zhang et al，2002)。 
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